Het is nuttig om data te zien als een verdeling.
Beschrijvende statistieken:
Waar ligt een waarde van \(X = 5,5\) in de verdeling?
Waar ligt een waarde van \(X = 5,5\) in de verdeling?
Stel dat we een andere steekproef hebben…
We kunnen het gemiddelde ter oriëntatie nemen…
… zodat we kunnen zeggen hoe dicht / ver een waarde is van het gemiddelde
Idee: we lokaliseren een punt ten opzichte van het gemiddelde in termen van SD’s.
\(z = \frac{X - \mu}{\sigma}\)
Veronderstel: \(\mu = 7\) en \(\sigma = 1\)
Voor onze waarde van 5.5:
\(z = \frac{X - \mu}{\sigma} = \frac{5.5 - 7}{1} = -1.5\)
Een waarde van 5.5 in onze data heeft een z-score van -1.50.
Rode verdeling: \(X \sim N(\mu, \sigma)\) –> \(X \sim N(7.00, 1.00)\)
Blauwe verdeling: \(X \sim N(\mu, \sigma)\) –> \(X \sim N(7.00, 0.50)\)
Stel dat we deze data willen projecteren op een nieuwe verdeling:
| id | value | z-score | new value |
|---|---|---|---|
| 1 | 6.0 | -1.0 | 90 |
| 2 | 4.5 | -2.5 | 75 |
| 3 | 9.5 | 2.5 | 125 |
| 4 | 7.5 | 0.5 | 105 |
| 5 | 5.5 | -1.5 | 85 |
Uit de z-scoreformule kunnen we \(z\), \(\mu\), \(X\) en \(\sigma\) afleiden:
\(z = \frac{X - \mu}{\sigma}\), i.e.
\(X = \mu + z\sigma\), and
\(-\mu = z\sigma - X\), and
\(\sigma = \frac{X-\mu}{z}\)
Als we de verdeling “standaardiseren”, wat is dan het effect op het gemiddelde en de standaardafwijking?
Neem deze populatie met \(\mu=3\) en \(\sigma=0.80\)
| id | value | z |
|---|---|---|
| 1 | 1 | -2.50 |
| 2 | 2 | -1.25 |
| 3 | 3 | 0.00 |
| 4 | 4 | 1.25 |
| 5 | 5 | 2.50 |
Dit leidt tot:
\(\mu = \frac{-2.50-1.25+0.00+1.25+2.50}{5} = \frac{0}{5} = 0\)
\(\sigma^2 = \frac{SS}{N} = \frac{(-2.50)^2+(-1.25)^2+(0.00)^2+(1.25)^2+(2.50)^2}{5} = \frac{5}{5} = 1\)
Stel dat…
Simpelste vorm:
Vereist aselecte steekproeftrekking (zie pagina 163)!
We kennen de raadkans: 0.50 (of 50%).
\(P(1st\ correct\ and\ 2nd\ correct)=0.50*0.50 = 0.25\)
Voor 10 voorspellingen:
\(P(correct)*P(correct)*P(correct)*...\) –> \(P(correct)^{10}\)
\(P(0.50)^{10} = 0.0009765625\) of 1/1024
A great scam!
Wat is de kans dat twee studenten op dezelfde dag jarig zijn in een groep van 10/25/50 studenten?
We gaan dit stapsgewijs in de live sessie doen
Maria is 26 jaar, vrijgezel, openhartig, en erg slim. Ze studeerde af in de rechten. Als student was ze zeer begaan met kwesties van discriminatie en miscarriage of justice en nam ze deel aan wekelijkse demonstraties voor dierenrechten.
Wat is waarschijnlijker?
Formalising the problem:
Waarom is \(P(B) < P(A)\)?
\(P(B)\) –> \(P(A)\) + doet pro bono werk voor dieren-rechten activisten
Maak does pro bono work for animal-rights activists) = \(P(C)\)
Engels: Joint probability
Twee gebeurtenissen die samen gebeuren, zijn minder waarschijnlijk dan elke gebeurtenis afzonderlijk (als ze onafhankelijk zijn).
Dus \(P(B) = P(A \cap C) = P(A)*P(C)\)
Stel:
Engels: Conditional probability
Wat we willen is: kans op TERRORIST gegeven dat er een ALARM is
In kansnotatie wordt dit uitgedrukt als: \(P(T \mid A)\)
| Terrorist | Passenger | |||
|---|---|---|---|---|
| Terrorist | 950 | 50 | 1,000 | |
| Passenger | 4,950 | 94,050 | 99,000 | |
| 5,900 | 94,100 | 100,000 |
\(P(terrorist \mid alarm) = 950/5900 = 16.10\%\)
Gedefinieerd door twee parameters:
Opmerking: een normale verdeling is altijd klokvormig, maar niet elke klokvormige verdeling is een normale verdeling.
We kunnen elke y-waarde lokaliseren.
Elke x-waarde correspondeert met een waarschijnlijkheid via de probability density function (PDF) (NL: Kansdichtheidsfunctie):
\(Y = \frac{1}{\sqrt{2\pi\sigma^2}}e^\frac{-(X-\mu)^2}{2\sigma^2}\)
Bijv. voor \(X = 3\) in \(N(0,1)\)
\(Y = \frac{1}{\sqrt{2\pi}}e^\frac{-(3)^2}{2} = \frac{1}{2.51}e^{-4.5} = \frac{1}{2.51}*0.01 = 0.0039\)
dus: de waarschijnlijkheid van \(X=3\) in een standaard normale verdeling is ~0.39%.
We kunnen de PDF toepassen en de exacte vorm van de normale verdeling verkrijgen.
Maar dit hoeven we niet te doen
Er is een mooie relatie tussen de verdeling en z-scores.
En we kunnen secties van de functie beschrijven in termen van z-scores.
We kunnen de oppervlakte tussen twee x-waarden berekenen.
We kunnen de oppervlakte tussen twee x-waarden berekenen.
Dat is niet nodig, want we weten hoe deze gebieden zich verhouden tot de z-scores:
| z | Prop in body | Prop in tail | Prop between M and z |
|---|---|---|---|
| 1.00 | 0.8413 | 0.1587 | 0.3413 |
| 1.96 | 0.9759 | 0.0250 | 0.4750 |
Voor een standaardnormaal, hoe waarschijnlijk is het om een waarde van \(X=0.5\) te verkrijgen?
Opmerking: we moeten eigenlijk preciezer vragen: hoe groot is de kans op een waarde van maximaal 0.5?
Wat is de kans om een waarde van maximaal 0.5 te hebben?
| z | Prop in body | Prop in tail | Prop between M and z |
|---|---|---|---|
| 0.50 | 0.6915 | 0.3085 | 0.1915 |
Het groene gebied komt overeen met het aandeel in het lichaam = 69.15%.
Een waarde van maximaal 0.5 (dus 0.5 of lager) heeft een kans van 69.15%.
Hoe groot is de kans op een waarde van ten minste 0.5?
Opmerking: dit betekent “0.5 of hoger”"
Hoe groot is de kans op een waarde van ten minste 0.5?
| z | Prop in body | Prop in tail | Prop between M and z |
|---|---|---|---|
| 0.50 | 0.6915 | 0.3085 | 0.1915 |
Het groene gebied komt overeen met het aandeel in de staart = 30.85%.
Een waarde van ten minste 0.5 (d.w.z. 0.5 of hoger) heeft een waarschijnlijkheid van 30.85%.
Hoe groot is de kans dat je groter bent dan 1.90m?
We gaan hier dieper op in tijdens de live sessie.
Meer in de live sessie
We noemen deze data binomiale data.
En de bijbehorende verdeling de binomiale verdeling.
2 mogelijke uitkomsten A en B.
Omdat we maar twee uitkomsten hebben, \(P(A) + P(B) = 1\), dus
50/50 kans
Laten we \(p\) aanduiden als een juiste gok.
Dus als ik één keer gok: \(p = 0.50\)
2 keer raden: nu hebben we vier uitkomsten
Dus we kunnen tellen:
Is dit te verwachten?
Hoe (on)waarschijnlijk is dat?
Wat als we dit 1000 keer deden…
Formeel beschreven door twee parameters:
\(X \sim B(n, p)\)
Opmerking: met \(n=1\) wordt de binomiale verdeling de Bernoulli verdeling genoemd.
Nadert de normaal met toenemende \(n\). Dan:
\(\mu = pn\), and
\(\sigma = \sqrt{npq}\)
We kunnen dus ook weer gebruik van z-scores maken!!
\(z = \frac{X-\mu}{\sigma} = \frac{X-pn}{\sqrt{npq}}\)
We weten:
Dus:
\(\mu = pn = 0.5*10 = 5\)
\(\sigma = \sqrt{npq} = \sqrt{10*0.5*0.5} = \sqrt{2.5} = 1.58\)
\(X=2\)
\(z = \frac{X-\mu}{\sigma} = \frac{X-pn}{\sqrt{npq}} = \frac{2-5}{1.58} = -1.90\)
Minstens 2: kijk naar de lichaam (body proportion) in de eenheidstabel: 0.9713 (97.13%)
Hoogstens 2: door te kijken naar de staart (tail proportion) in de eenheidstabel: 0.0287 (2.87%)
\(X=10\)
\(z = \frac{X-\mu}{\sigma} = \frac{X-pn}{\sqrt{npq}} = \frac{10-5}{1.58} = 3.16\)
Kijkend naar de staart waarschijnlijkheid in de eenheidstabel: 0.0008 (0.08%)
Door afronding \(\approx\) 1/1024!